这是阿里中间件 ARMS 团队推出的 “网站常见问题1分钟定位”系列文章的第二篇。
- 如何使用阿里云ARMS诊断Java服务端报错问题_files/640.png)
网页报错,尤其是5XX错误是互联网应用最常见的问题之一。5XX错误通常发生于服务端。服务端是业务逻辑最复杂,也是整条网络请求链路中最容易出错、出了错最难排查的地方。
运维工程师与研发工程师排查此类问题,通常要通过登录机器查看日志来定位问题。对于一般的Java应用错误日志,通常是这幅模样:
- 如何使用阿里云ARMS诊断Java服务端报错问题_files/640.jpg)
一般来说,对于逻辑不算太复杂、历史不算“太悠久”的应用来说,登录机器看日志的方式能够很大程度上地解决网站报错的问题。但遇到下列情况时,使用传统的方式可能就有些困难:
在一个分布式Java应用集群中,我想知道这类错误每分钟发生了多少次,什么时候开始发生的;
系统太老,遗留异常我不想管了,我只想知道,今天和昨天相比,发布前和发布后相比,多了哪些异常;
我想知道这个错误对应的是哪个Web请求,Web请求的参数是什么;
客服给了我一个用户下单失败的订单号,我想知道这个用户下单为啥失败,到底哪里错了;
二、使用阿里云APMS的0埋点技术,1分钟定位“错”问题
利用阿里云ARMS(应用实时监控)的异常自动捕捉、收集、统计、溯源能力,您只需要在您的应用启动脚本中增加几行探针加载逻辑,不需要对您的应用代码做任何改动,即可以让应用中所有“错”调用无处可逃。
1、对应用中的所有错误进行全方位监控,只需要安装ARMS Java探针(如果您的应用托管于EDAS,您甚至可以跳过这一步)
- 如何使用阿里云ARMS诊断Java服务端报错问题_files/640 [1].jpg)
2、所有“错”一览无余
3、错误溯源:找到导致错误的原因
光看到错误的分布还远远不够,我们需要知道这个错误发生的原因。虽然日志中Java的异常堆栈中包含了调用的代码片段,但并不包含这次调用的完整上下游和请求参数。
ARMS的探针技术,通过字节码增强技术,可以以很小的性能开销完整捕获异常上下游的完整调用快照,让异常的原因更加清晰。
我们可以从调用链快照中清晰地看到一次异常中的完整链路,我们甚至可以看到这次调用的详细的请求参数和异常日志,以获得更加详细的问题上下文信息。
- 如何使用阿里云ARMS诊断Java服务端报错问题_files/640 [4].jpg)
- 如何使用阿里云ARMS诊断Java服务端报错问题_files/640 [5].jpg)
至此,我们完成了一次全白屏化的线上错误诊断过程,通过ARMS探针诊断工具,再也不需要登录机器诊断线上错误问题了。
4、防患于未然 -- 设置告警
当然,您可以在ARMS的告警设置中对某一个接口或全部接口设置告警,让页面接口出现错误时第一时刻通知到您的运维团队。
当然除了错误以外,网站还会出现页面卡顿、内存泄漏等一系列问题。利用ARMS快速解决更多网站疑难杂症,请继续关注“网站常见问题1分钟定位”系列其他文章。